iT邦幫忙

2022 iThome 鐵人賽

DAY 24
0
自我挑戰組

用Python學習網路爬蟲30天系列 第 24

[Day24] 爬蟲應用與工具比較總複習

  • 分享至 

  • xImage
  •  

爬蟲流程

  1. 確認想要蒐集的資料
  2. 尋找相關的網站來分析要爬取網頁的架構
  3. 選擇合適的爬蟲工具來進行作業
  4. 把擷取的資料儲存起來

爬蟲工具比較

  | BeautifulSoup | Selenium | Scrapy框架
------------- | -------------
功能 | 搜尋與取得HTML元素 | 擷取網頁元素、模擬網頁操作流程 | 完整的網頁爬蟲功能
特色 | 容易學習 | 自動化操作網頁元素、容易與JavaScrip的事件合作 | 執行效率快、內建多種檔案輸出模式、Scrapy Shell偵錯工具
使用時機 | 靜態網頁 | 動態網頁 | 大型爬蟲專案


參考資料
爬蟲基本概念
爬蟲工具比較


上一篇
[Day 23] Scrapy 總複習
下一篇
[Day25] MySQL資料庫
系列文
用Python學習網路爬蟲30天30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言